第30届计算机视觉与模式识别大会(CVPR)于2017年7月21~26日在美国夏威夷召开。CVPR是计算机视觉领域的两大顶级会议之一,由美国电气与电子工程师协会(IEEE)与计算机视觉基金会(CVF)共同主办。笔者观察发现,对比计算机视觉两大顶级会议CVPR和ICCV(国际计算机视觉大会),许多美国计算机视觉研究人员更偏爱CVPR,而欧洲和亚洲的同行似乎更偏爱ICCV,这个现象或许和CVPR每年固定在美国召开有关。
与往届相比,本次会议呈现出一些新的特点,笔者将基于个人观察对本次会议及其新的特点进行简要介绍。
规模带来的变化
会议规模逐年增大是最近几年CVPR的共同特点。今年的参会人数接近5000人,较去年增长近40%,录用的论文达783篇,这样的规模给会议的组织者既带来了兴奋,也带来了压力。例如,通常第一个大会报告的出席率最高,但是在大会报告时,几乎不可能找到能够同时容纳五千人的单体会场。按照这样的增长速度,明年CVPR的规模有可能达到7000人。CVPR 2018大会主席之一迈克尔·布朗(Michael Brown)介绍说,正在考虑明年的会议只保留一个大会报告,以减轻组织方面的压力。CVPR通常有三个大会报告,邀请一个计算机视觉领域的知名学者和两个其他相关领域的讲者。为了容纳更多的口头报告(71篇,每篇14分钟),今年的会议变为3个并行的议程,往年是2个,而明年则有可能继续增加到4个。今年的墙报亮点(Poster spotlights)达到144篇,仍然为每个报告4分钟,但是被调整到口头报告之前进行,这个议程的变化在提高墙报亮点的展示效果方面似乎很有效。
工业界的深度参与
此次会议的另一个显著特点是工业界的深度参与。今年的赞助商接近200家公司,总赞助金额接近一百万美元。与往年不同的是,今年接收的论文中,至少一个作者是来自于工业界的论文占相当大的比例,粗略估计超过了25%,明显高于以往CVPR。这个新的特点可能与两个因素相关:首先,计算机视觉研究经过多年发展,尤其是在深度学习被推广之后,能够在很多实际应用场景落地;其次,相关企业加大了研发力度。在这些赞助商中,我国的企业占据了相当大的份额,除了BAT之外,还包括相当多的国内初创企业。但从涉及的应用领域看,我国参会的初创企业主要集中在自动驾驶和人脸识别这两个目前最吸引眼球的方向;从会场的企业展台来看,国外的初创企业涉及的方向较广泛,包括自动驾驶、无人超市、视觉硬件、智能医疗等。来自工业界的参与者除了宣读、展示论文及在展台展示、介绍产品之外,另一项重要的任务是招聘人才。与往年主要由企业员工介绍情况的方式不同,今年的会场中出现了很多猎头,他们频繁出没于会场各个位置,与论文作者和其他参会人员联络。由此看来,尽管目前学术界和工业界都已经加大了对计算机视觉及深度学习方面人才培养的投入,但这些领域的高端人才在短期内仍然处于严重供不应求的局面。
华人力量的继续壮大
华人学者近年来一直是CVPR论文的主要贡献力量,今年CVPR接收的论文中有华人作者参与的约占50%。此外,今年体现的一个新特点是华人学者在本领域高端力量的展示。今年的三位大会主席中,有一位是华人(张正友博士),而四位程序主席中则包括两位华人(刘燕西教授、吴郢教授)。在会议85位领域主席中,则有超过四分之一的华人(22人),其中有3位来自我国大陆院校(陈熙霖研究员、虞晶怡教授和笔者),还有4位来自香港、内地公司或国际公司在我国的机构(华刚研究员、孙剑博士、王井东研究员和王晓刚教授)。华人学者在计算机视觉研究领域的国际重要性正逐渐得到应有的认同,本次会议期间确定了2021年CVPR会议的组织团队,中科院自动化所谭铁牛院士将担任CVPR 2021大会主席,上海科技大学虞晶怡教授将担任程序主席。
深度学习:一统天下与百花齐放
计算机视觉是一个讲求实际效果的研究领域,因此当深度学习证明了其在众多问题上能够取得比其他方法更高(甚至高得多)的准确率之后,深度学习模型与方法很快展现出在计算机视觉中一统天下的势头。本次会议接收的论文中绝大多数都与深度学习相关,少数一些论文虽然不直接研究深度学习,但是其使用的视觉特征大多数也是使用深度学习模型获得的,只有极少数的论文完全与深度学习无关。本次会议展示的论文还体现了一些新的特点。
首先,研究与应用范围扩大。例如,京东X事业部、今日头条、唯品会这类非传统计算机视觉公司的参与,证明了计算机视觉的研究正在更广阔的范围内发现新的问题,并能够将研究成果落地。其次,研究内容更多地向深度学习的基础与理论方向发展。例如将深度学习用来处理图数据以及对深度学习模型的能力进行理论探讨,来自约翰霍普金斯大学的论文“Global Optimality in Neural Network Training”,给出了深度神经网络全局最优解的一些条件。这些工作可能代表了计算机视觉领域的一个趋势:在将深度学习简单应用之外,需要更深入地研究深度学习的理论基础。第三,与以往多数论文基于VGG或ResNet网络结构不同,本次会议有很多研究新型网络结构的论文。其中获得最佳论文奖之一的“Densely Connected Convolutional Networks”,提出了一种新的网络结构。尽管同行对密集连接网络的看法仍不完全一致,但该论文及本次会议中其他提出新型网络结构的论文在提高深度学习网络的准确度、泛化能力、速度等方面均有重要的意义。
重要研究方向之一:克服计算资源的限制
本次CVPR会议还涉及的另一个热点内容是克服计算资源的限制。
深度学习可以分为训练与测试两个步骤,在两个步骤中均需要占用大量的资源,如CPU、GPU、运行时间、内存、硬盘、电池等。在基于深度学习的计算机视觉研究与应用中,尽管训练步骤可以在大规模集群上进行,但是其测试的天然环境(即实际应用的环境)大多数是移动终端或嵌入式设备(如智能手机、手环、手表、音箱等),所能提供的计算资源极其有限。甚至在训练时,如果研究人员提出的Ubernet不进行特别处理,运行单张图片所需的内存已经超出了当前GPU卡的显存规模。克服计算资源的限制是目前学术界与工业界共同的研究热点,本次会议有多篇从软件维度进行网络压缩、加速的论文,而工业界则更多地从硬件或软硬件结合的维度出发。在用于测试阶段的产品中,谷歌公司此前已经推出了深度学习加速芯片TPU,而微软公司沈向洋博士在此次CVPR大会报告期间推出了HPU芯片,用于其混合现实产品HoloLens1。英特尔公司也在此次大会中推出其Movidius神经运算棒2和相应的API,通过USB接口连接到其他设备,功耗不足2瓦,在CVPR大会主会首日吸引了大量参会者排队购买并迅速售罄。英伟达(Nvidia)公司在大会设展台推介其多款新品,而赛灵思(Xilinx)公司则在推介其用于将深度学习模型移植到FPGA的软件工具体系。笔者认为,克服各种计算资源的限制需要硬件与软件维度研究的结合,也需要学术界与工业界的紧密合作,是近期一个很重要的研究方向。 ■
注释:
1 HoloLens 是微软首个不受线缆限制的全息计算机设备,能让用户与数字内容交互,并与周围真实环境中的全息影像互动。该产品于北京时间2015年1月22日凌晨发布。
2 Movidius神经运算棒是世界上首个基于USB模式的深度学习推理工具和独立的人工智能加速器,为广泛的边缘主机设备提供专用深度神经网络处理功能。
所有评论仅代表网友意见